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建 ， 提 出 了 一 种 基于 卷 积 神经 网 络 的 视频 图 像 重建 模型 。 采 取 预 训练 的 策略 用 于 重建 模型 参数 的 初始 化 ， 同 时 在 多 帧 
视频 图 像 的 空间 和 时 间 维 度 上 进行 训练 ， 提 取 描 述 主要 运动 信息 的 特征 进行 学 习 ， 充 分 利用 视频 帧 间 图 像 的 信息 互补 
进行 中 间 帧 的 重建 。 针 对 帧 间 图 像 的 运动 模糊 ， 采用 自 适 应 运动 补偿 加 以 处 理 ， 对 通道 进行 优化 输出 得 到 高 分 辨 率 的 
重建 图 像 。 实 验 表明 ， 重 建 视频 图 像 在 平均 客观 评价 指标 上 均 有 和 较 大 提升 (PSNR +0.4dB /SSIM +0.02)， 并 且 有 效 减 
少 了 图 像 在 主观 视觉 效果 上 的 边缘 模糊 现象 。 与 其 他 传统 算法 相 比 ， 在 图 像 评 价 的 客观 指标 和 主观 视觉 效果 上 均 有 明 
显 的 提升 ， 为 视频 图 像 的 超 分 辨 率 重 建 提供 了 一 种 基于 卷 积 神经 网 络 的 新 颖 架构 ， 也 为 进一步 探索 基于 深度 学 习 的 视 
频 图 像 超 分 辨 率 重 建 方法 提供 了 思路 。 
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Video image super-resolution reconstruction method based on convolutional neural network 
Liu Cun, Li Yuanxiang, Zhou Yongjun, Luo Jianhua 
(School of aeronautics & astronautics, Shanghai Jiao Tong University, Shanghai 200240, China) 


Abstract: In order to further improve the performance of video image super-resolution reconstruction and study the 


reconstruction of spatial resolution of video images by using the characteristics of convolution neural network, this paper 


proposed a video image reconstruction model based on convolution neural network. The model adopted the pre-training strategy 
to initialize the parameters. And it carried out the training processing both on the spatial and temporal dimensions of the multi- 
frame video images at the same time. It extracted the characteristics of the main motion information, learn and make full use of 
the information inter the frames for improved performance. And it used the adaptive motion compensation algorithm to optimize 


the output of the channel to obtain the reconstructed center frame image with high resolution. The experimental results show 


that the average of objective evaluation indexes for video image reconstruction has improved with a rather clear margin (PSNR 
+ 0.4 dB / SSIM + 0.02) , and the edge of the fuzzy phenomenon in video reconstruction image for the subjective visual effect 
has been effectively reduced. Compared with other traditional algorithms, the evaluation of the objective indexes and subjective 
visual effect of the reconstructed image are both obviously improved. Provide a novel architecture based on convolution neural 
network for video image super-resolution, which provides an exploration for the further study of video image super-resolution 
reconstruction based on the deep learning method. 
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ua 的 视频 中 生成 超 高 清 内 容 。 | 
前 ， 图 像 超 分 辩 率 重建 方法 可 以 分 为 两 类 一 一 基于 模型 

图 像 超 分 辩 率 重建 是 从 低 分 辩 率 图 像 或 视频 序列 中 获得 对 “的 重建 方法 和 基于 学 习 的 重建 方法 。 基 于 模型 的 重建 方法 将 低 

应 高 分 辩 率 图 像 的 过 程 ， 在 医学 、 航 空 和 电子 监控 等 诸多 领域 “分辩 率 图 像 建 模 为 具有 随机 噪声 的 高 分 辩 率 图 像 的 二 次 采样 图 
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均 有 广泛 应 用 "。 随 着 新 一 代 超 高 清 视频 (3840x2048) 的 日 益 像 ， 在 从 低 分 辩 率 图 像 恢 复 高 分 辩 率 图 像 的 过 程 中 通过 引入 了 
普及 ， 大 多 数 视频 内 容 在 获取 、 传 输 和 保存 中 面临 许多 问题 ， 则 化 项 , 对 模型 进行 约束 ”。 在 贝 叶 斯 框架 中 , 引入 决定 图 像 平 
因此 ， 需 要 视频 重建 算法 从 全 高 清 (1920x10800 或 更 低 分 辩 率 ” 滑 度 的 先 验 知识 ， 以 获得 质量 更 高 的 重建 图 像 ， 例 如 ，Babacan 
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1.1 pri 
车 于 学 习 的 重建 方法 指出 ， 在 重建 过 程 中 使 用 相 邻 帧 对 于 
视频 重建 是 有 帮助 的 ” 。 在 视频 重建 的 过 程 中 ， 对 帧 间 的 运动 
进行 建 模 和 估计 ， 可 以 通过 帧 间 的 子 像素 运动 获得 附加 信息 。 
如 果 训 练 过 程 中 包含 多 个 视频 帧 ， 则 通过 基于 学 习 的 方法 也 可 
以 获得 由 帧 间 差 异 所 传达 的 附加 信息 。 
视频 重建 模型 架构 (图 1) 主要 包括 一 个 运动 补偿 模块 和 
ZNE (Hs LAL). ROKARE i—i, 
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Ri CO) 和 后 一 帧 (t+D ) 组 合作 为 输入 帧 的 结构 ， 包 含 在 整个 
重建 过 程 中 。 为 了 使 用 多 个 前 向 和 后 向 帧 ， 模 型 架构 可 以 扩展 


更 多 的 分 支 。 单 帧 输入 的 框架 尺寸 为 1xMxN, 其 中 M 和 AN 分 
别 为 输入 图 像 帧 的 宽度 和 高 度 。 对 于 所 提出 模型 的 输入 架构 ， 
在 应 用 第 一 个 卷 积 层 石 之 前 ， 三 帧 输入 图 像 沿 着 第 一 维 进行 连 
接 , 那么 志 新 输入 的 数据 结构 即 为 3x3xM x N 维 。 类 似 的 方式 ， 
模型 也 可 以 在 卷 积 层 石 之 后 进行 帧 的 连接 组 合 ， 然 后 用 做 乙 的 
输入 ， 图 像 数 据 维度 大 小 和 视频 重建 模型 的 滤波 器 尺寸 也 进行 
相应 地 调整 。 因 为 存在 3 个 输入 帧 ， 模 型 新 的 过 滤器 尺寸 为 
3x fx fx C, 其 中 6 表示 第 nn 层 的 内 核 数 量 , 卷 积 层 闷 的 滤波 器 


大 小 也 扩大 为 3xGxhxhxG， 卷 积 层 三 的 滤波 器 尺寸 为 3xG X x fx o 


图 1 视频 重建 模型 架构 示意 图 


预 训练 模型 和 视频 重建 模型 中 的 卷 积 层 五 的 滤波 器 尺寸 不 


已 是 相同 的 。 对 于 预 训 练 模型 ， 由 马 表示 五 的 输出 数据 具有 尺 
ST MxNxC, KIER AG j.o) 的 计算 为 


hi, jc) =X Y wGn nt, o)y, Gm, jn C) (1) 


其 中 : wlm,n,t,0) 表示 滤波 器 的 权重 ，2(o) 表示 偏差 ;< 表示 核 
的 编号 ; vr 表示 时 刻 t 下 的 输入 帧 , 权重 大 小 为 MxNxlxC， 
第 三 维度 尺寸 为 1， 因为 在 时 刻 1 只 有 一 帧 输入 图 像 , 那么 视频 
重建 模型 的 相同 数据 计算 为 


M-1N-l tH 


h,(i, j,c)= 2.2 UNE: oxy m,j—nt)+b,(c) (2) 


其 中 : von ns t.c) RI BO 分 别 表示 视频 重建 模型 的 权重 和 偏差 ; 
y 包 含 三 个 连续 帧 y(t 一 DD 、y(?) 和 y(t+1)， 将 它们 进行 连接 后 
可 以 根据 输入 图 像 y(1 一 1 yO 和 y(t+D 表示 为 


M-N- 
h(i, j,c) )-Li« (m,n,t -1,c)y, (im, j- Y Yw noy li- m, j-n) 
m=0 n=0 m0 n=0 (3) 
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1 m, j -n) b (c) 
通过 在 式 (3 ) 中 设置 六 =h, P YO D fU y -D 替换 为 
y(t) ， 若 使 式 (1) 5X (3) 相等 ， 需 满足 以 下 条 件 : 


w(m,n,t,c)=w,(m,n,t —1,c)+w,(m,n,t,c)+w,(m,n,t+1,c) (4) 


b(c) =b,(¢),Ym,n,c (5) 
在 实验 中 ， 本 文 将 视频 重建 模型 的 滤波 器 权重 和 偏差 初始 
化 为 


w,(m,n,t —l1,c) = w,(m,n,t,c) 2 w,(m,n,t +1,c) = i w(m,n,t,c) (6) 


b.(c) 2 b(c), Vm,n,c (T) 
这 相当 于 在 应 用 卷 积 层 五 之 前 对 输入 图 像 进行 取 平 均 操 作 。 
E 想 的 运动 补偿 帧 应 该 与 其 参考 帧 相同 ， 使 用 这 种 框架 训练 神 
经 网 络 理论 上 将 导致 和 中 的 帧 (1-D、 帧 (和 帧 (i+D 为 
相等 权重 ， 特 别 是 在 视频 帧 内 容 中 包含 运动 非 刚性 对 象 的 情况 
下 ， 会 对 重建 效果 造成 较 大 影响 。 如 果 分 别 重建 视频 序列 的 每 
一 帧 ， 则 每 一 帧 将 在 某 一 时 刻 点 处 于 当前 时 刻 6) 、 之 前 时 刻 
(1 一 DD 或 后 续 时 刻 (1+DD 帧 的 位 置 。 因 此 ， 从 帧 (1 有 D 到 当前 帧 
O ARAW E +D 到 当前 帧 ( 的 运动 补偿 误差 应 该 是 相同 的 。 
这 意味 着 五 中 帧 4-D 的 滤波 器 和 帧 D. 的 滤波 器 权重 应 该 
是 相同 的 。 同 理 ， 世 中 的 所 有 过 滤器 权重 也 应 该 是 相同 的 。 因 


nr: 


同 ， 视 频 重 建 模型 中 的 第 一 维 是 预 训练 模型 的 三 倍 ， 因 为 三 帧 
输入 帧 是 沿 着 时 间 维 度 进 行 连接 的 。 视 频 重建 模型 中 使 用 的 核 


此 , 对 模型 中 五 的 权重 采用 相同 设置 .在 帧 4-D 中 的 特定 空间 


宽度 、 核 深度 及 核 数量 与 预 训练 模型 一 致 ， 以 便 预 训练 滤波 器 
的 值 可 以 直接 用 于 视频 重建 模型 。 的 区 别 是 视频 重建 模型 
的 卷 积 层 石 中 的 滤波 器 是 使 用 三 帧 输入 帧 ， 所 以 在 视频 重建 
络 的 连接 层 中 的 滤波 器 深度 是 在 预 训练 模型 中 的 三 倍 。 

此 外 ， 卷 积 层 五 的 输出 数据 类 似 于 由 单 帧 重建 获得 的 输出 
数据 ， 因 为 志和 五 保持 与 单 帧 重建 模型 中 的 相同 设置 。 为 了 正 
确 初始 化 视频 重建 模型 ， 假 设 ] 三 个 连续 帧 的 视频 ， 而 


z 
E 


不 是 使 


位 置 处 应 用 相同 的 滤波 器 设置 也 可 以 表示 相同 的 局 部 相关 性 ， 


本 质 上 在 时 间 维 度 上 扩展 了 网 络 的 卷 积 性 质 ， 使 滤波 器 共享 相 
同 的 权重 。 
1.2” 预 训练 模型 

在 开始 对 视频 重建 模型 进行 训练 之 前 ， 首 先 对 重建 模型 的 


权重 进行 了 预 训练 。 图 像 预 训练 模型 仅 具 有 卷 积 层 ， 其 优点 是 
输入 图 像 的 尺寸 可 以 是 任何 大 小 ， 并 且 算 法 不 是 基于 图 像 块 ， 
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保证 了 


算法 的 时 间 效 率 。 其 中 ， 了 表示 输入 的 低 分 辩 率 图 像 ， 


X 表示 输出 的 高 分 辩 率 图 像 。 预 训练 模型 个 卷 积 层 组 成 ， 
其 中 两 个 隐 层 和 如 之 后 是 线性 修正 单元 (ReLU)。 卷 积 层 


C, dcn L BLEUS 
C x fx fa x C2 ÑU C; x 


出 ; 否则 ， 需 要 具有 


"OUR. 
13 ”运动 补偿 


如 果 视 频 中 发 9 
能 会 很 困难 ， 这 也 可 能 


ROI Ax Axe 的 滤波 器 组 成 ， 其 中 有 x 有 表示 核 大 小 ， 
。 卷 积 层 和 的 滤波 器 尺寸 分 别 为 


访 x 访 x1。L 仅 有 一 个 核 来 获取 图 像 作为 输 
个 内 核 的 附加 层 ， 以 及 其 他 聚合 等 后 处 


E 较 大 的 运动 移 位 或 运动 模糊 ， 运 动 补偿 可 
导致 高 分 辨 率 图 像 的 重建 过 程 中 出 现 边 


界 效应 和 伪 像 现象 ， 从 而 削弱 重建 效果 。 模 型 引入 自 适 应 运动 


进行 运动 补偿 : 


其 中 : 
相关 性 ; 


r(i, j) 


补偿 方法 ， 减 少 了 在 运动 估计 时 相 邻 帧 的 影响 ， 可 


yeri j) 2 Q.— rG, DY J) * rG jy j) 
空 制 每 个 像素 位 置 Gj) 处 的 
OE 是 中 心 帧 ; 
自 适应 运动 补偿 后 的 视频 帧 ; 


[根据 式 (8) 


(8) 
P 心 帧 和 相 邻 帧 之 间 的 


Al H. 


Chi 
direa N 


刘 村 ， 


Bn 


对 于 目标 函数 ， 可 由 给 定 的 高 分 辩 率 图 像 7 n m 11. 2] 
成 的 训练 集 ， 生 成 相应 的 低 分 辩 率 图 像 7,n=1...N ， 并 计算 
建 图 像 的 像素 平均 误差 (MSE) 作为 训练 网 络 的 目标 函数 : 

1 xm 2 


E 05-07)» 
r HW xa 


结果 与 分 析 


首先 将 提出 的 模型 与 其 他 图 像 和 视频 重建 算法 进行 了 比较 ; 
然后 定量 地 研究 不 同 的 视频 重建 架构 的 性 能 ， 以 及 预 训 练 和 运 
动 补偿 机 制 对 视频 重建 效果 的 影响 ， 最 后 ， 对 实验 结果 进行 比 
较 与 分 析 。 
2.1 数据 集 

实验 使 用 一 个 公开 的 视频 数据 库 ， 该 库 包含 4 高 分 辨 率 
(3840 X2160 像素 ) 的 未 经 压缩 的 视频 序列 短片 ， 选 取 视 频 中 
包含 的 59 个 场景 帧 ,使 用 其 中 53 帧 进行 训练 和 6 帧 进行 测试 ， 
使 用 每 个 测试 序列 的 4 帧 ， 并 且 计算 24 个 测试 帧 的 平均 峰值 


pup 


If, br) = (2) 


2 su 


v 是 运动 补偿 的 相 邻 帧 ; 


Jamc Ed I 
Yer XEM 


ri) ENN 


r(i, j) = expC-keti, j)) 9) 
其 中 : 大 是 常数 参数 ，*e@ 旋 是 运动 补偿 的 误 匹 配 误差 。 较 大 的 


误差 可 外 


界 而 造成 。 根 


较 大 时 ， 对 应 的 权重 较 小 。 
当前 帧 中 的 像素 ， 从 而 更 好 地 保证 了 重建 帧 的 效果 。 


1.4 通道 优化 


一 种 提升 图 像 分 辨 率 的 方法 是 在 低 分 辨 率 空 


能 是 由 于 运动 闭塞 、 物 体 模糊 ， 或 位 置 (i, 办) 接近 运动 边 
WX (85 和 《9 )， 当 运动 补偿 误差 在 位 置 G. j) kb 


这 意味 着 自 适 / 


ian 


分 数 步 幅 


进行 卷 积 a 随后 在 
积 。 由 于 卷 积 操作 发 生 在 高 


应 运动 补偿 像素 只 是 


间 中 以 去 的 


高 分 辨 率 空 间 中 以 步 幅 
分 辩 率 空间 中 ， 


An p f. 


或 者 在 具 


的 不 同 权重 部 分 ， 


据 不 同 的 子 


率 空间 中 的 输出 像素 坐标 。 当 


实现 : 


SR e Parc 


其 中 : PSO 是 将 
REN rH x rW x C 的 张 量 的 周 


PS(T) 


因此 , 卷 积 


mod(k .r) 2 0 时 ， 


像素 卷 积 A 输出 层 从 


地 激活 这 些 模式 ， 其 中 x， 


mod(k,,r)=0 时 ,可 采 | 


) = PSW, * f^ a ep) 


期 性 算 子 ， 在 数学 上 可 以 描述 为 


=F ur) 


X,y,C 


ylr |,c-r-mod( y,r)--c-mod(x,r) 


为 1 进行 卷 
算法 计算 开销 将 增 


H 


有 尺寸 为 ks 的 滤波 器 W, 的 低 分 辨 率 空间 
进行 去 为 步 幅 的 卷 积 操作 , 激活 卷 积 Ww 
落 在 像素 之 间 的 权重 不 被 激活 和 计算 ， 

。 根 据 每 个 激活 模式 的 位 置 ， 最 多 可 以 激活 | 
像素 位 置 mod(x, 7) 、 
AERE E RAH 


mod(y,r) ， 滤 波 器 在 图 像 上 的 
?7 分别 表 示 高 分 辩 


恰好 
激活 模式 的 数量 正好 是 


“| 个 权重 。 根 


T 


如 下 方法 


(10) 
维度 为 y xw xc.r 的 张 量 元 素 重新 排列 成 维 


(11) 
HT w, 具有 形状 xr’Cx k, xk, Ma, -5 和 


它 相 当 于 具有 滤波 器 w 的 低 分 辨 率 空 间 中 的 子 
氏 分 辩 率 图 像 特征 图 直接 生成 一 个 用 于 每 


个 特征 图 的 放大 滤波 器 ， 从 而 得 到 高 分 辨 率 图 像 。 


信 噪 比 (PSNR) 值 和 结构 相似 性 (SSIM) 值 作为 性 能 指标 。 实 
验 以 去 为 缩放 因子 对 视频 进行 采样 ， 得 到 960X540 像素 分 辨 
率 的 图 像 ， 以 便 更 好 地 与 其 他 重建 算法 进行 比较 。 实 验 还 选择 
在 另外 一 组 视频 集 “Videoe ”上 进行 测试 ， 实 验 过 程 中 跳 过 每 
个 视频 的 第 一 帧 和 最 后 一 帧 ， 以 便 使 视频 重建 的 过 程 中 始终 具 
备 一 整套 3 个 连续 帧 作为 模型 输入 。 

22 ”模型 参数 设置 
于 预 训练 的 模型 具有 3 个 卷 积 层 ， 其 中 石和 王后 面 各 
f£ ReLU 单元 ,五 具有 64 个 内 核 ， 内 核 大 小 为 9x9; LRA 32 
个 内 核 ， 内 核 大 小 为 5x5; 具有 一 个 大 小 为 5x5 的 内 核 。 视 
频 重建 模型 的 滤波 器 具有 与 图 像 预 训练 模型 相同 的 初始 参数 配 


将 图 像 和 视频 转换 到 YCbCr 颜色 空间 , 并 且 仅 将 亮度 通道 
Cv 通道 ) 用 于 训练 、 测 试 和 客观 性 能 指标 计算 。 为 了 建立 有 


效 的 视频 训练 集 ， 从 训练 视频 场景 中 提取 了 3 组 连续 帧 ， 使 用 
MATLAB 实现 对 所 需要 的 缩放 因子 2、3 或 4 进行 抽样 ， 并 将 
所 得 到 的 低 分 状 率 帧 以 双 三 次 插值 向 上 采样 为 原始 分 辩 率 。 然 
后 分 别 计算 从 第 一 帧 和 最 后 一 帧 到 中 心 帧 的 光 流 ， 并 计算 得 到 
运动 补偿 帧 。 从 所 得 到 的 3 帧 (2 帧 运动 补偿 帧 和 一 帧 中 心 帧 ) 
中 提取 36X36X3 的 数据 立方 块 ， 即 连续 3 帧 的 36X36 像素 
图 像 块 。 如 果 帧 中 图 像 块 不 包含 足够 的 结构 信息 ， 则 将 该 帧 进 
行 移 除 ， 最 终 建 立 的 训练 数据 库 由 图 像 数 据 立 方 体 组 成 。 

为 了 在 训练 阶段 优化 滤波 器 的 权重 和 偏差 ， 需 要 定义 用 于 
最 小 化 的 损失 函数 。 训 练 数据 集 的 输出 图 像 和 真 值 图 像 之 间 的 
欧 氏 距离 需要 测量 ,峰值 信 品 比 PSNR) 的 性 能 测量 也 与 欧 氏 
距离 直接 相关 。 为 了 避免 训练 期 间 的 边界 效应 ， 可 以 对 36X36 
像素 的 图 像 块 采用 零 填 充 ， 或 允许 更 小 的 卷 积 输出 ， 即 每 个 卷 
积 层 的 输出 图 像 块 相应 收缩 。 缩 小 的 输出 图 像 块 对 应 于 原始 图 
像 块 的 20X20 中 心 像素 ， 然 后 将 这 些 中 心 像 素 用 于 计算 损失 
函数 。 在 视频 重建 的 训练 中 ， 实 验 采 用 240 批 次 ， 前 两 层 的 学 


=] 
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习 率 为 10*， 最 后 一 层 的 学 习 率 为 105 ， 权 习 
1 练 机 制 , 进行 2x10* 次 迭代 , 不 同 帧 的 迭代 滤波 器 效果 
没有 进一步 


使 用 预 j 


如 图 3 所 示 。 实 验 表明 ， 降 低 学 习 率 对 重建 效果 


E EJ Sx107. 


的 改善 ， 因 此 ， 实 验 在 整个 训练 过 程 中 保持 学 习 率 不 变 。 


SRCNN:25.526 Ours:26.1 


图 2 不 同 算法 的 性 能 比较 CPSNR/dB) 


23 与 经 典 算法 比较 
将 提出 的 模型 分 别 与 经 典 的 单 帧 和 视频 重建 算法 进行 比较 ， 
以 双 三 次 插值 算法 作为 基准 ， 可 以 通过 简单 地 将 站 


03 


分 别 应 用 


帧 重建 模型 
于 每 一 帧 来 实现 视频 超 分 辩 率 重建 ， 包 括 Bicubic ji 


ied 


值 重建 算法 、A+ 算 法 "以 及 SRCNN 模型 。 此 外 ， 还 与 经 典 


的 视频 重建 算法 Bayesian-MB "tfr f Eb, Fg -E1 帧 相 邻 
帧 测试 所 有 视频 重建 方法 。 
模型 实现 的 第 一 个 变化 是 使 用 19x19 像素 的 双 三 次 插值 向 


上 采样 图 像 块 , 而 不 是 使 用 


更 好 地 与 使 用 双向 插值 输入 的 方法 进行 直接 比较 ; 
是 用 ReLU 替代 之 前 算法 使 用 的 S 形 激活 函数 ， 


5X5 像素 的 输入 图 像 块 , 这 样 可 以 


第 二 个 改变 
姑 为 前 者 提 


供 更 快 的 模型 收敛 速度 。 


刘 


Chi 
B, Si 基于 卷 积 神经 AID 


WEE 


RH AE 


图 3 三 帧 训练 滤波 器 的 比较 


表 1 不 同 重建 方法 的 性 能 (PSNR) 


比较 /dB 


Dataset scale Bicubic A+ SRCNN  Bayesian-MB Ours 


Videoset4 
Videoset4 
Videoset4 


2 28.43 30.53 30.70 
3 25.28 26.36 26.51 
4 23.79 24.50 24.69 


30.63 31.2 
26.43 26.66 
24.14 24.7 


R2 不 同 模型 的 客观 评价 指标 SSIM 比较 


Dataset scale Bicubic A+ SRCNN Bayesian-MB Ours 


Videoset4 2 0.867 0.9154 0.917 0.923 0.926 
Videoset4 3 0.733 0.7904 0.793 0.807 0.807 
Videoset4 4 0.633 0.6889 0.692 0.687 0.701 

图 4 所 示 为 提出 的 模型 在 训练 过 程 中 的 收敛 速度 与 其 他 算 

法 的 比较 。 由 图 可 以 看 出 ， 与 同样 基于 神经 网 络 的 SRCNN 模 


建 算法 相 比 ， 


型 相 比 ， 该 模型 能 够 更 快 地 收敛 到 稳定 值 ; 


也 能 够 更 加 高 效 地 重建 得 到 较 


司 时 与 其 他 所 有 重 


高 的 PSNR 值 。 除 
了 模型 训练 效率 高 以 外 ， 在 测试 阶段 ， 该 算法 是 基于 卷 积 神经 
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网 络 的 前 馈 计 算 过 程 ， 大 大 减少 了 传统 方法 中 由 于 大 量 迭 代 运 3 ”结束 语 
算 造 成 的 重建 效率 损失 ， 在 硬件 GPU 加 速 下 对 于 单 帧 视频 图 i 
像 的 平均 重建 时 间 约 为 0.26 s。 在 综合 考虑 重建 精度 和 重建 效 本 文 充分 利用 视频 多 帧 图 像 间 的 空间 和 时 间 信 息 ， 提 出 了 


率 的 情况 下 ， 对 于 不 同 的 视频 帧 图 像 ， 该 模型 能 够 快速 重建 得 ”一 种 新 的 基于 卷 积 神经 网 络 的 视频 重建 模型 。 通 过 比较 不 同 的 
到 具有 更 高 客观 评价 指标 的 重建 图 像 ， 同 时 在 主观 视觉 效果 上 ”模型 结构 ， 对 模型 的 输入 帧 进行 运动 补偿 处 理 和 预 训练 策略 ， 
能 够 有 效 去 除 重建 图 像 的 边缘 和 纹理 模糊 现象 《图 5)。 能 够 有 效 提 高 视频 重建 的 质量 并 减少 训练 时 间 。 针 对 视频 中 的 
快速 移动 对 象 ， 引 入 自 适 应 运动 补偿 方案 来 处 理由 此 引发 的 运 
动 模糊 现象 。 实 验 表明 ， 与 经 典 方法 相 比 ， 所 提出 的 模型 能 


al i 在 视频 图 像 重建 中 获得 更 优 的 客观 评价 指标 和 更 高 的 图 像 质量 ， 
mI ZU | 为 其 他 需要 高 分 辨 率 图 像 的 视觉 任务 和 应 用 场景 提供 了 基础 。 
al ] 对 模型 的 进一步 改进 和 优化 ， 特 别 是 针对 特定 应 用 场景 的 视频 


o 


average PSNR (dB) 


: 数据 进行 超 分 辩 率 重建 及 视觉 应 用 ,也 是 今后 的 研究 方向 之 一 。 
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